Evaluación alineada temporalmente para generación de talking heads
Descubre cómo la alineación temporal mejora la evaluación de generación de talking heads, ofreciendo métricas más robustas y justas para comparar modelos.
Descubre cómo la alineación temporal mejora la evaluación de generación de talking heads, ofreciendo métricas más robustas y justas para comparar modelos.
Echo: un sistema de audio con un encoder ViT que unifica diarización, ASR y separación de fuentes en un espacio latente. Eficiente y preciso.